Remote sensing imagery provides comprehensive views of the Earth, where different sensors collect complementary data at different spatial scales. Large, pretrained models are commonly finetuned with imagery that is heavily augmented to mimic different conditions and scales, with the resulting models used for various tasks with imagery from a range of spatial scales. Such models overlook scale-specific information in the data. In this paper, we present Scale-MAE, a pretraining method that explicitly learns relationships between data at different, known scales throughout the pretraining process. Scale-MAE pretrains a network by masking an input image at a known input scale, where the area of the Earth covered by the image determines the scale of the ViT positional encoding, not the image resolution. Scale-MAE encodes the masked image with a standard ViT backbone, and then decodes the masked image through a bandpass filter to reconstruct low/high frequency images at lower/higher scales. We find that tasking the network with reconstructing both low/high frequency images leads to robust multiscale representations for remote sensing imagery. Scale-MAE achieves an average of a $5.0\%$ non-parametric kNN classification improvement across eight remote sensing datasets compared to current state-of-the-art and obtains a $0.9$ mIoU to $3.8$ mIoU improvement on the SpaceNet building segmentation transfer task for a range of evaluation scales.
translated by 谷歌翻译
自我监督学习中的最新作品通过以对象为中心或基于区域的对应目标进行预处理,在场景级密集的预测任务上表现出了强劲的表现。在本文中,我们介绍了区域对象表示学习(R2O),该学习统一了基于区域的和以对象为中心的预处理。 R2O通过训练编码器以动态完善基于区域的段为中心的蒙版,然后共同学习掩模中内容的表示形式。 R2O使用“区域改进模块”将使用区域级先验生成的小图像区域分组为较大的区域,这些区域倾向于通过聚类区域级特征对应对应对象。随着训练的进展,R2O遵循了一个区域到对象的课程,该课程鼓励学习区域级的早期特征并逐渐进步以训练以对象为中心的表示。使用R2O的表示形式导致了Pascal VOC(+0.7 MIOU)和CityScapes(+0.4 MIOU)的语义细分表现最先进的表现,并在MS Coco(+0.3 Mask AP)上进行了实例细分。此外,在对Imagenet进行了预审进之后,R2O预处理的模型能够超过Caltech-UCSD Birds 200-2011数据集(+2.9 MIOU)的无监督物体细分中现有的最新对象细分。我们在https://github.com/kkallidromitis/r2o上提供了这项工作的代码/模型。
translated by 谷歌翻译
准确地估算主要山区盆地中的积雪对于水资源经理来说至关重要,以便做出影响当地和全球经济,野生动植物和公共政策的决策。目前,此估计需要多个配备LIDAR的飞机飞行或原位测量值,两者均昂贵,稀疏和对可访问区域有偏见。在本文中,我们证明了来自多个,公开可用的卫星和天气数据源的空间和时间信息的融合,可以估算关键山区的积雪。我们的多源模型的表现优于单源估计值5.0英寸RMSE,并且优于稀疏的原位测量值的估计值1.2英寸RMSE。
translated by 谷歌翻译
域泛化(DG)的主要挑战是克服多个训练域和看不见的测试域之间的潜在分布偏移。一类流行的DG算法旨在学习在训练域中具有不变因果关系的表示。但是,某些特征,称为\ emph {伪不变特征},可能是培训域中的不变性,但不是测试域,并且可以大大降低现有算法的性能。为了解决这个问题,我们提出了一种新颖的算法,称为不变信息瓶颈(IIB),该算法学习跨越训练和测试域的最小值的最小值。通过最大限度地减少表示和输入之间的相互信息,IIB可以减轻其对伪不变特征的依赖,这对于DG是期望的。为了验证IIB原则的有效性,我们对大型DG基准进行了广泛的实验。结果表明,在两个评估度量标准中,IIB的IIIb平均超过2.8 \%和3.8 \%的准确性。
translated by 谷歌翻译
最近对物体检测的自我监督预防方法在很大程度上专注于预先绘制物体探测器的骨干,忽略了检测架构的关键部分。相反,我们介绍了DetReg,这是一种新的自我监督方法,用于预先列出整个对象检测网络,包括对象本地化和嵌入组件。在预先绘制期间,DetReg预测对象本地化以与无监督区域提议生成器匹配本地化,并同时将相应的特征嵌入与自我监控图像编码器的嵌入式对齐。我们使用DETR系列探测器实施DetReg,并显示它在Coco,Pascal VOC和空中客车船基准上的Fineetuned时改善了竞争性基线。在低数据制度中,包括半监督和几秒钟学习设置,DetReg建立了许多最先进的结果,例如,在Coco上,我们看到10次检测和+3.5的AP改进A +6.0 AP改进当培训只有1%的标签时。对于代码和预用模型,请访问https://amirbar.net/detreg的项目页面
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
自我监督的表示学习的最新趋势集中在消除训练管道中的归纳偏见。但是,当可用数据有限时,归纳偏差在设置中可能很有用,或者提供对基础数据分布的更多见解。我们提出了空间注意(SPAN),该框架利用未标记的图像数据集中使用一致的空间和语义结构来指导视觉变压器的注意。 SPAN通过将注意力面罩从单独的变压器头正规化,以跟随语义区域的各个先验。这些先验可以从数据统计数据或域专家提供的单个标记样本中得出。我们研究了几种详细的现实情况,包括医学图像分析和视觉质量保证。我们发现,所产生的注意力面膜比从域 - 不合义预审进的掩码更容易解​​释。 SPAN可为肺和心脏分割产生58.7的地图改进。我们还发现,与结构域 - 不合稳定的预处理相比,我们的方法在将验证的模型转移到下游胸部疾病分类任务时会产生2.2个MAUC的改善。最后,我们表明,与域 - 不可屈服的预处理相比,跨越预处理会导致低数据表格中的下游分类性能更高。
translated by 谷歌翻译
现在,整个研究社区都可以广泛使用机器学习(ML),它促进了这些新兴的数学技术在广泛学科中的新型和引人注目的应用的扩散。在本文中,我们将重点介绍一个特定的案例研究:古人类学领域,该领域旨在根据生物学和文化证据理解人类的演变。正如我们将表明的那样,ML算法的易用性以及在人类学研究界的适当使用方面缺乏专业知识,导致了整个文献中出现的基本错误应用。结果不可靠的结果不仅破坏了将ML合法纳入人类学研究的努力,而且还会对我们的人类进化和行为过去产生潜在的理解。本文的目的是简要介绍古人类学中ML的某些方式;我们还为那些与该领域完全熟悉的人提供了一些基本ML算法的调查,而该领域仍在积极发展。我们讨论了一系列的错误,错误和违反正确的ML方法方案的行为,这些方法经常在人类学文献的积累体内出现令人不安。这些错误包括使用过时的算法和实践;不适当的火车/测试拆分,样本组成和文本解释;以及由于缺乏数据/代码共享以及随后对独立复制的限制而缺乏透明度。我们断言,扩大样本,共享数据和代码,重新评估同行评审的方法,以及最重要的是,开发包括ML专家在内的跨学科团队对于将ML在人类学中纳入ML的未来研究的进步都是必要的。
translated by 谷歌翻译
随着全球气候变化影响影响世界的影响,需要集体努力来减少温室气体排放。能源部门是气候变化的最大贡献者,许多努力集中在减少对碳源发电厂的依赖,并转向可再生能源,如太阳能。太阳能电池板位置的全面数据库对于协助分析师和政策制定者来说,在定义太阳能的进一步扩展方面的策略方面很重要。在本文中,我们专注于创建太阳能电池板的世界地图。我们识别给定地理区域内的太阳能电池板的位置和总表面积。我们使用深度学习方法来使用空中图像自动检测太阳能电池板位置及其表面积。该框架由使用具有语义分割模型的串联串联使用图像分类器的双分支模型组成的框架在我们创建的卫星图像的日数据集上培训。我们的作品提供了一种用于检测太阳能电池板的高效和可扩展的方法,实现分类的精度为0.96,并且对于分割性能,IOU分数为0.82。
translated by 谷歌翻译
鉴于无线频谱的有限性和对无线通信最近的技术突破产生的频谱使用不断增加的需求,干扰问题仍在继续持续存在。尽管最近解决干涉问题的进步,但干扰仍然呈现出有效使用频谱的挑战。这部分是由于Wi-Fi的无许可和管理共享乐队使用的升高,长期演进(LTE)未许可(LTE-U),LTE许可辅助访问(LAA),5G NR等机会主义频谱访问解决方案。因此,需要对干扰稳健的有效频谱使用方案的需求从未如此重要。在过去,通过使用避免技术以及非AI缓解方法(例如,自适应滤波器)来解决问题的大多数解决方案。非AI技术的关键缺陷是需要提取或开发信号特征的域专业知识,例如CycrationArity,带宽和干扰信号的调制。最近,研究人员已成功探索了AI / ML的物理(PHY)层技术,尤其是深度学习,可减少或补偿干扰信号,而不是简单地避免它。 ML基于ML的方法的潜在思想是学习来自数据的干扰或干扰特性,从而使需要对抑制干扰的域专业知识进行侧联。在本文中,我们审查了广泛的技术,这些技术已经深入了解抑制干扰。我们为干扰抑制中许多不同类型的深度学习技术提供比较和指导。此外,我们突出了在干扰抑制中成功采用深度学习的挑战和潜在的未来研究方向。
translated by 谷歌翻译